Pojedynczy zatruty dokument może ujawnić „tajne” dane za pośrednictwem ChatGPT

Najnowsze generatywne modele sztucznej inteligencji to nie tylko samodzielne chatboty generujące tekst – można je łatwo połączyć z danymi, aby udzielać spersonalizowanych odpowiedzi na pytania. ChatGPT firmy OpenAI można połączyć ze skrzynką odbiorczą Gmaila, umożliwić inspekcję kodu GitHub lub wyszukiwanie spotkań w kalendarzu Microsoft. Jednak te połączenia mogą być potencjalnie narażone na nadużycia – a badacze wykazali, że wystarczy jeden „zatruty” dokument, aby do tego doszło.
Nowe odkrycia badaczy bezpieczeństwa Michaela Bargury'ego i Tamira Ishaya Sharbata, ujawnione dziś na konferencji hakerów Black Hat w Las Vegas, pokazują, jak luka w łącznikach OpenAI umożliwiła wydobycie poufnych informacji z konta Google Drive za pomocą pośredniego ataku typu prompt injection . W demonstracji ataku, nazwanej AgentFlayer , Bargury pokazuje, jak możliwe było wydobycie tajnych danych programistów w postaci kluczy API, przechowywanych na demonstracyjnym koncie Google Drive.
Luka ta uwypukla, w jaki sposób łączenie modeli sztucznej inteligencji z systemami zewnętrznymi i udostępnianie im większej ilości danych zwiększa potencjalną powierzchnię ataku dla złośliwych hakerów i potencjalnie mnoży sposoby wprowadzenia luk w zabezpieczeniach.
„Użytkownik nie musi nic robić, żeby paść ofiarą ataku, i nie musi nic robić, żeby dane zostały ujawnione” – mówi Bargury, dyrektor ds. technologii w firmie ochroniarskiej Zenity, w rozmowie z WIRED. „Pokazaliśmy, że działa to całkowicie bez klikania; potrzebujemy tylko twojego adresu e-mail, udostępniamy ci dokument i to wszystko. Więc tak, to jest bardzo, bardzo złe” – mówi Bargury.
Firma OpenAI nie odpowiedziała natychmiast na prośbę WIRED o komentarz w sprawie luki w zabezpieczeniach Connectors. Firma wprowadziła Connectors for ChatGPT jako funkcję beta na początku tego roku, a na jej stronie internetowej wymieniono co najmniej 17 różnych usług, które można połączyć z jej kontami. System umożliwia „przenoszenie narzędzi i danych do ChatGPT” oraz „wyszukiwanie plików, pobieranie danych na żywo i odwoływanie się do treści bezpośrednio w czacie”.
Bargury twierdzi, że zgłosił swoje odkrycia do OpenAI na początku tego roku i że firma szybko wprowadziła środki zaradcze, aby zapobiec technice, której użył do wydobycia danych za pośrednictwem konektorów. Sposób działania ataku oznacza, że jednorazowo można wydobyć tylko ograniczoną ilość danych – nie można było usunąć całych dokumentów w ramach ataku.
„Chociaż problem ten nie dotyczy wyłącznie Google, pokazuje on, dlaczego ważne jest opracowanie solidnych zabezpieczeń przed atakami polegającymi na szybkim wstrzykiwaniu kodów” — mówi Andy Wen, starszy dyrektor ds. zarządzania produktami zabezpieczającymi w Google Workspace, wskazując na niedawno ulepszone środki bezpieczeństwa AI firmy.
Atak Bargury'ego rozpoczyna się od zatrutego dokumentu, który jest udostępniany na Dysku Google potencjalnej ofiary. (Bargury twierdzi, że ofiara mogła również przesłać zainfekowany plik na swoje konto). Wewnątrz dokumentu, który na potrzeby demonstracji jest fikcyjnym zbiorem notatek z nieistniejącego spotkania z CEO OpenAI, Samem Altmanem, Bargury ukrył 300-wyrazowy, złośliwy komunikat zawierający instrukcje dotyczące ChatGPT. Komunikat jest napisany białym tekstem w rozmiarze 1, którego człowiek prawdopodobnie nie zauważy, ale maszyna i tak go odczyta.
W filmie demonstrującym koncepcję ataku Bargury pokazuje ofiarę proszącą ChatGPT o „podsumowanie mojego ostatniego spotkania z Samem”, choć twierdzi, że wystarczy dowolne zapytanie użytkownika dotyczące podsumowania spotkania. Zamiast tego, ukryty komunikat informuje LLM, że wystąpił „błąd” i dokument nie musi być podsumowywany. Komunikat informuje, że dana osoba jest w rzeczywistości „programistą ścigającym się z terminem” i potrzebuje sztucznej inteligencji, aby przeszukać Dysk Google w poszukiwaniu kluczy API i dołączyć je na końcu adresu URL podanego w komunikacie.
Ten adres URL to w rzeczywistości polecenie wjęzyku Markdown , które łączy się z serwerem zewnętrznym i pobiera zapisany tam obraz. Jednak zgodnie z instrukcjami w wierszu poleceń, adres URL zawiera teraz również klucze API znalezione przez sztuczną inteligencję na koncie Google Drive.
Wykorzystanie języka Markdown do ekstrakcji danych z ChatGPT nie jest niczym nowym. Niezależny badacz bezpieczeństwa Johann Rehberger pokazał, jak można w ten sposób wyodrębnić dane i opisał, jak OpenAI wprowadziło wcześniej funkcję „url_safe”, która wykrywa złośliwe adresy URL i zatrzymuje renderowanie obrazów, jeśli są one niebezpieczne. Aby obejść ten problem, Sharbat, badacz sztucznej inteligencji w Zenity, pisze we wpisie na blogu szczegółowo opisującym pracę, że badacze wykorzystali adresy URL z chmury obliczeniowej Azure Blob firmy Microsoft. „Nasz obraz został pomyślnie wyrenderowany, a w usłudze Azure Log Analytics otrzymujemy również bardzo przejrzysty dziennik żądań, który zawiera klucze API ofiary” – pisze badacz.
Atak ten jest najnowszym przykładem tego, jak pośrednie wstrzyknięcia natychmiastowe mogą wpływać na generatywne systemy sztucznej inteligencji. Pośrednie wstrzyknięcia natychmiastowe polegają na podawaniu przez atakujących zatrutych danych LLM, które mogą nakazać systemowi wykonanie złośliwych działań. W tym tygodniu grupa badaczy pokazała, jak pośrednie wstrzyknięcia natychmiastowe mogą zostać wykorzystane do przejęcia kontroli nad systemem inteligentnego domu, zdalnie aktywując oświetlenie i kocioł .
Chociaż pośrednie, szybkie wstrzykiwanie danych (ang. Intermediate Instant Injections) istnieje niemal tak długo, jak ChatGPT, badacze bezpieczeństwa obawiają się, że wraz ze wzrostem liczby systemów podłączonych do systemów LLM rośnie ryzyko, że atakujący wprowadzą do nich „niezaufane” dane. Uzyskanie dostępu do poufnych danych może również umożliwić hakerom włamanie się do innych systemów organizacji. Bargury twierdzi, że podłączenie systemów LLM do zewnętrznych źródeł danych oznacza, że będą one bardziej wydajne i użyteczne, ale wiąże się to z pewnymi wyzwaniami. „To niezwykle potężne rozwiązanie, ale jak to zwykle bywa w przypadku sztucznej inteligencji, większa moc wiąże się z większym ryzykiem” – mówi Bargury.
wired